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DNA 不 仅 是 主要 的 遗传 物质 ， 同 时 也 是 生物 进化 史 的 重要 记录 者 。 通 过 DNA 序列 
分 析 研 究 生 物 的 进化 历程 、 确 定 物 种 间 的 进化 关系 具有 许多 的 优越 性 。 第 1，DNA 仅 由 
4 种 基本 结构 单位 〈《G、A、T、C) 组 成 ， 其 序列 上 的 异同 是 明确 无 误 的 ， 因 而 易于 分 
析 。 第 2，DNA 序列 含有 无 比 丰 富 的 进化 信息 。 有 些 物种 的 基因 组 中 具有 多 于 10" 个 碱 
基 对 。 第 3，DNA 序列 相对 易于 获取 。 特 别 是 随 着 近年 来 PCR 技术 的 应 用 与 推广 以 及 
人 类 基因 组 项 目的 实施 ，DNA 序列 正 以 爆炸 性 的 速度 积累 起 来 。 正 是 由 于 上 述 这 些 原 
因 ，DNA 序列 分 析 已 成 为 生物 系统 与 演化 研究 中 最 重要 与 最 热门 的 工具 之 一 ， 并 取得 了 
许多 令 人 瞩目 的 结果 【《〈 张 亚 平 ，1995，Miyamoto ¥ ,1987;Hillis 等 .1990;Zhang 等 ， 
1993), 

以 DNA 序列 研究 物种 的 进化 关系 ， 大 致 分 两 大 步骤 : 1) 根据 研究 的 对 象 与 目的 ， 
选择 适当 的 基因 或 其 他 DNA 区 域 ， 并 测定 目标 DNA 片段 的 序列 。 对 于 近 绿 物种 的 研 
究 ， 应 选用 进化 速度 比较 快 的 区 域 ， 对 于 远 绿 物种 ， 则 应 选用 相对 保守 的 区 域 。2》 通 过 
DNA 同 源 序列 的 比较 ， 采 用 一 定 的 系统 重建 途径 与 方法 ， 确 定 基因 系统 树 和 物种 系统 
树 。 

如 何 正 确 地 分 析 DNA 序列 以 从 中 获取 进化 信息 ? 这 方面 的 研究 已 取得 长 足 的 进展 ， 
但 尚 有 许多 未 能 解决 的 问题 。 本 文 拟 对 系统 研究 中 如 何 比较 分 析 DNA 序列 作 一 简单 的 介 
绍 与 探讨 。 


1 B DNA 序列 的 排序 (Alignment) 


对 两 个 同 源 -DNA 序列 的 比较 ， 首 先 需 要 确定 他 们 从 最 近 的 共同 祖先 分 离 后 ， 各 序列 
中 缺失 /插入 所 发 生 的 位 置 以 及 同 源 部 分 的 对 应 关系 。 这 个 过 程 叫 排序 。 对 于 蛋白 质 编码 
区 域 而 言 ， 由 于 蛋白 质 功能 上 的 需要 和 三 联 体 密 码 结构 的 限制 、 缺 失 ” 插 人 很 少 发 生 或 发 
生 后 很 易 被 选择 淘 法 。 因 此 ， 一 般 比 较 容易 排序 。 而 在 非 编码 区 域内 ， 缺 失 /插入 发 生 的 
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频率 可 能 很 高 。 在 这 种 情况 下 ， 排 序 过 程 变 得 十 分 复杂 ， 一 般 必 须 借 助 于 计算 机 。 各 种 主 
要 的 DNA 序列 分 析 软 件 中 ， 如 PC / GENE,GCG 和 MacVector 等 ， 都 有 DNA 排序 功 
能 。 根 据 我 们 的 经 验 ， 如 果 DNA ARET 70%-75%， 就 不 易 获 得 确定 的 排序 。 从 图 
1 中 可 看 出 ， 不 同 的 排序 代表 了 不 同 的 进化 途径 。 从 序列 a 到 序列 b， 最 少 需 3 Ca— 
b: 第 3 位 点 的 1 次 缺失 ， 第 8、9 位 点 的 1 次 双 碱 基 缺 失 以 及 第 14 位 点 的 1 次 转换 )， 
而 最 多 则 需 6 步 (a--b4 第 2、7 和 8 位 点 各 自 1 次 单 碱 基 缺失 ， 第 2、9 和 14 位 点 各 自 
1 次 转换 )。 采 用 不 同 的 排序 ， 可 能 得 到 完全 不 同 的 系统 树 。 一 种 稳健 的 方法 是 ， 删 除 涉 
及 缺失 7 插入 的 序 别 片段 。 但 是 ， 有 时 缺失 /插入 可 能 代表 重要 的 进化 信息 ， 简 单 的 删除 
并 不 可 取 。 我 们 建议 ， 如 果 存 在 多 种 合理 的 排序 ， 而 不 同 的 排序 又 得 到 不 同 的 系统 树 ， 就 
应 该 再 铀 定 另 一 个 独立 的 DNA 片段 序列 ， 根 据 这 段 序列 得 到 的 系统 树 判断 究竟 哪 种 排序 : 
更 为 合理 。 如 果 无 法 获得 新 的 序列 ， 增 加 外 源 物种 数 可 能 有 助 于 问题 的 解决 。 


2 “A” (Combiend) 还 是 “一 致 ”(Consensus) 


在 确定 DNA 序列 的 排序 后 ， 我 们 经 常会 面临 如 何 处 理 多 组 DNA 数据 的 问题 。 为 了 
获得 物种 树 ， 研 究 来 自 不 同 基因 区 域 的 多 组 序列 数据 是 必 不 可 少 的 。 在 获取 多 组 序列 数据 
后 ， 有 两 种 处 理 方 法 。 第 1 种 是 先 根 据 各 个 基因 序列 ， 分 别 构 建 各 自 的 分 子 系统 树 。 然 后 
根据 这 些 分 子 系统 树 的 共同 之 处 ， 构 建 4 一 致 ”" 的 系统 树 (“ 一 致 ” 途 径 )，(Peng 等 ， 
1982)。 以 “严格 一 致 ”(strict consensus) 的 系统 树 为 例 ， 该 系统 树 中 的 每 个 分 枝 
(branch 必须 是 在 所 有 单个 分 子 系统 树 中 都 完全 相同 的 分 枝 。 换 言 之 ， 任 何在 各 个 分 子 系 
统 树 间 有 分 歧 的 分 枝 ， 都 不 能 为 * 严 格 一 致 ” 系 统 树 所 接受 。 第 2 种 是 先 把 多 组 序列 数据 合 
并 为 一 组 ， 然 后 在 这 一 合并 的 序列 数据 基础 上 构建 系统 树 (联合 途径 ) (Kluge,1989)。 

主张 4 一 致 ?途径 的 认为 ， 通 过 该 种 方法 


b, CG-TAGT--CATGAC 有 时 能 获得 比较 稳妥 的 系统 树 。 另 外 ， 当 某 
b, CG-TAG-T-CATGAC 一 基因 序列 数据 特别 多 时 ， 如 果 采 用 “联合 ” 
a CGATAGTTCCATGGC 途径 、 该 基因 的 数据 可 能 会 捷 盖 其 它 基因 的 
b, C-GTAGT--CATGAC 进化 信息 。 换 言 之 ， 在 这 种 情况 下 ， 和 根据 多 
bs C-GTAG--TCATGAC 基因 系列 数据 构建 的 系统 树 ， 可 能 实际 上 仪 
图 1 DNA 同 源 序列 a 和 1b 的 排列 代表 了 某 一 基因 的 进化 信息 。 而 “一 致 "途径 
Fig.1 The alignment of DNA sequencesa and b 赋予 每 个 基因 片段 〈 不 论 序 列 长 短 ) 相等 的 
by —b, 代表 部 分 可 能 的 不 同 排列 方式 加 权 值 ， 而 有 助 于 防止 这 种 偏差 


{b,,b,,b; and b, demonstrate some possible alignments), (Kluge,1983; Hillus,1987>). #in, mee 
予 各 基因 片段 相等 的 加 权 值 ， 相 应 地 各 片段 

内 每 一 位 点 的 加 权 值 就 取决 于 读 片 段 的 相对 长 短 和 变异 讼 。 片 段 较 长 、 变 异 度 较 高 的 ， 其 
每 一 位 点 的 加 权 值 就 较 低 。 反 之 亦 然 。 这 实际 上 和 将 导致 对 不 同 序列 位 点 的 随意 加 权 
《Cracarft 等 ,1989)。 同 时 , “一 致 ”途径 并 不 一 定 稳妥 。 图 2 将 有 助 于 我 们 理解 “一 致 ” 的 问 
题 。 与 正确 的 物种 树 (图 2d) 比较 ，A 基因 序列 揭示 了 物种 1 和 2 的 正确 关系 ， 但 未 能 
解决 它们 与 物种 3 和 4 之 间 的 关系 (图 2a)。 类 似 地 ，B 基因 序列 仅 揭示 出 物种 3 与 4 之 
间 的 关系 而 没 能 解决 它们 与 物种 1 和 2 之 间 的 关系 〈 图 ?2b)。 换 言 之 ， 基 因 A 和 了 的 综 
合 已 包含 了 所 有 4 个 物种 间 的 正确 进化 关系 。 然 而 ， 基 因 树 a 和 b 的 “严格 一 致 ?虽然 稳 
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妥 无 错 ， 却 未 能 解决 这 4 个 物种 间 的 任何 关系 〈 图 2c)。“ 联 合 ” 途 径 则 有 完全 不 同 的 特 
点 。 由 于 直接 利用 所 有 序列 位 点 提供 的 进化 信息 ， 通 过 “联合 ”途径 获得 的 结果 可 能 会 更 接 
近 于 正确 的 物种 树 。 这 有 两 方面 的 原因 ，1) 一 些 物 种 间 的 进化 关系 芭 显 示 于 某 些 基 因 
中 。 以 能 超 科 为 例 ， 现 在 还 没有 发 现 ， 实 际 上 恐怕 也 不 存在 一 个 理想 的 基因 一 一 仅 靠 该 基 
因 就 能 揭示 所 有 能 超 科 物种 间 的 进化 关系 。 换 言 之 ， 即 使 对 于 一 个 动物 超 科 ， 也 难免 需要 
多 基因 的 “联合 ”。2) 当 不 同 序列 位 点 具有 相互 抵 般 的 傅 息 时 ， 增 加 序列 位 点 数 有 助 于 显 
示 出 正确 的 进化 信息 ， 排 除 进化 杂音 (Queinz.1993)。 从 图 2 来 看 ， 采 用 “联合 ”途径 分 析 
A 基因 和 B 基因 序列 ， 就 极 有 可 能 获得 正确 的 物种 数 d。 在 我 们 对 熊 超 科 7 个 种 的 研究 
中 ， 就 出 现 了 类 伺 图 2 中 的 现象 (Zhang 等 ，1994)。 
这 两 种 途径 选择 的 关键 


在 于 各 序列 位 点 是 否 独立 。 1 1 ! ! 
当 各 位 点 严重 不 独立 时 ， 同 z 2 += {= 
一 基因 内 的 不 同位 点 更 有 可 À | 
能 倾向 于 支持 某 一 错误 的 进 a 人 te) a) 
化 关系 。 此 时 ,“ 一 致 "途径 


瓯 怕 是 合理 的 选择 。 如 果 没 图 2 物种 1、2、3 和 4 的 系统 树 
Fig. 2 Phylogenetic trees for species 1,2,3 and 4 
有 理由 各 位 点 的 独 a a. 根据 A BE Fee FRA based on A gene sequences}; 
性 ,“* 联 侣 ”途径 是 理想 的 选 b. 根据 B 基因 序列 构建 的 分 子 系 毕 树 (based on B gene sequences); 
择 。 实 践 中 ， 即 使 在 有 少数 c 系统 择 a Fl b RY — Fe" SER (strict consensus of tree a and b); 
d- ”正确 的 物种 树 (species tree). 


序列 位 点 不 独立 的 情况 下 ， 
也 应 该 先 考 察 基因 树 。 如 果 
各 基因 树 间 有 冲突 ， 且 有 冲突 的 分 枝 置 信和 度 较 高 时 ， 应 采用 “一 致 ”途径 。 而 有 冲突 的 分 枝 
置信 度 较 低 时 ， 可 结合 使 用 “一致” 和 “联合 ”两 种 途径 。 如 果 各 基因 树 间 设 有 冲突 ， 建 议 采 
用 “联合 ?途径 (Zhang 等 ，1994)。 


3 DNA 序列 的 加 权 


在 着 手 构建 分 子 系统 树 之 前 ， 我 们 还 应 当 了 解 如 何 处 理 不 同 的 DNA 位 点 以 及 不 同 的 
序列 变化 。 现 已 清 想 地 知道 ， 为 了 排除 杂音 以 获取 正确 的 进化 信息 ， 在 一 些 情况 下 对 
DNA 位 点 及 各 种 序列 变化 予以 加 权 是 必 不 可 少 的。 以 下 是 一 些 基本 的 加 权 规 则 。 首 先 ， 
应 当 区 别 3 种 不 同类 型 的 序列 变化 ， 转 换 、 苏 换 和 缺失 /插入 。 这 种 区 分 对 于 使 用 具有 较 
高 转换 / Miki KM DNA 作 远 缘 物种 的 比较 时 尤其 重要 。 我 们 知道 ， 哺 乳 动 物 系统 重建 
中 最 常用 的 线粒体 基因 组 ， 其 转换 /其 换 的 比率 就 普遍 较 高 (Zhang 等 ，1993)。 一 般 常 
FAR SORE, AAE / RMR R FART MREA 1, BRM MRE 
则 为 R。 对 于 远 绿 物种 的 比较 ， 如 果 转 换 已 趋 于 饱和 ， 就 可 完全 忽略 转换 而 仅 使 用 痊 换 。 
至 于 近 缘 物种 的 比较 ， 由 于 转换 一 般 尚 未 趋 于 饱和 ， 因 而 并 不 包含 很 多 进化 杂音 。 此 时 ， 
为 了 方便 起 见 ， 根 据 我 们 的 经 验 ， 可 以 赋予 转换 和 项 换 相同 的 加 权 值 。 对 缺失 7/ HARM 
权 还 设 有 较为 统一 的 看 法 。 多 碱 基 的 缺失 7 播 人 ， 在 没有 明显 证 据 表 明 是 由 多 次 缺失 7 播 
入 积累 而 形成 的 时 ， 一 般 可 以 认为 是 由 多 个 碱 基 的 一 次 缺失 /插入 形成 的 。 也 就 是 说 ， 可 
以 作为 1 个 变异 特征 。 在 缺失 /插入 很 少 发 生 的 区 域 ， 如 蛋白 质 编码 区 ， 缺 失 / 插入 的 加 
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权 值 或 许 应 高 于 题 换 。 而 在 缺失 /插入 经 常 发生 的 区 域 ， 其 加 权 值 或 许 近似 于 转换 。 也 有 
人 主张 干脆 忽略 涉及 缺失 / 插 人 的 区 域 。 其 次 ， 我 们 应 当 区 别 不 同 的 DNA 位 点 。 就 蛋白 
质 编码 基因 而 言 ， 密 码 子 第 三 位 点 进化 最 快 ， 应 赋予 最 低 的 加 权 值 ， 而 密码 子 第 二 位 点 最 
保守 ， 故 应 赋予 最 高 的 加 权 值 。 以 哺乳 动物 线粒体 细胞 色素 b 基因 为 例 ， 其 常用 的 加 权 . 
方法 是 ， 密 码 子 第 一 和 第 二 位 点 取代 〈 包 括 转换 与 颠 换 ) 的 加 权 值 等 同 于 第 三 位 点 其 换 的 
MRA. MAHAR MARIAM AS (Lrwin 等 ,1991)。 在 同一 蛋白 质 基 因 内 ， 一 般 
不 再 进一步 细 分 保守 区 域 与 快速 进化 区 域 。 一 方面 这 种 细 分 过 于 复杂 ， 操 作 上 十 分 困难 。 
另 一 方面 ， 如 此 细 分 也 许 并 非 必须 。 对 于 RNA 基因 ， 由 于 功能 上 的 需要 必须 维持 其 二 级 
结构 的 稳定 ， 因 此 葵 区 (stem 与 环 状 区 (toop) 的 进化 规律 有 所 不 同 。 总 体 上 而 言 ， 茎 区 似 
乎 相对 保守 一 些 。 在 茎 区 ， 当 一 个 位 点 的 突变 固定 后 ， 与 其 相对 应 的 位 点 可 能 倾向 于 出 现 
相应 的 变异 ， 以 维持 Watosn—-Crick 碱 基 配对 的 结构 。 换 言 之 ， 在 荃 区 当 一 个 位 点 发 生 突 
变 并 固定 后 ， 可 能 与 其 对 应 位 点 所 发 生 的 相应 变异 就 很 容易 被 保留 干 来 。 因 此 ，Wheeler 
等 (1988) 建 议 对 芭 区 的 取代 赋予 较 低 的 加 权 值 。 我 们 对 熊 超 科 线 粒 体 DNA 序列 的 研究 表 
有 明 ， 共 区 的 多 数位 点 并 不 遵循 配对 取代 规律 (Zhang 等 .1993)。 目 前 尚 不 清楚 应 赋 于 共 区 多 
低 的 加 权 值 。Dixon 等 (1993) 建 议 采 用 0.8 这 一 经 验 值 。 至 于 多 数 的 非 基因 区 域 ， 由 于 我 
们 对 其 进化 规律 所 知 甚 徽 ， 因 此 ， 如 何 加 权 还 有 待 探索 。 


4 构建 分 子 系统 树 的 主要 方法 


解决 上 述 问 题 之 后 ， 即 可 利用 数 党 方法， 综合 分 析 DNA 序列 ， 提 取 进 化 信息 。 这 也 
就 是 通常 所 说 的 构建 分 子 系统 树 。 随 着 系统 构建 方法 的 发 展 及 其 计算 机 程序 化 ， 从 最 近 两 
年 开始 ， 国 际 上 的 有 关 主 要 刊物 已 逐 朵 要求 文 章 对 其 所 采用 的 计算 机 程序 及 分 析 过 程 有 清 
楚 的 交待 。 从 现 有 的 结果 看 ， 在 一 些 情况 下 ， 根 据 同 一 序列 数据 ， 采 用 不 同 的 构建 方法 ， 
有 可 能 得 到 相互 政 盾 的 系统 树 。 

主要 的 系统 重建 方法 可 归纳 为 3 类 (Nei, 1987;Felsenstein, 1988); D 简约 法 (parsi- 
mony methods)。 其 中 最 有 影响 的 是 最 大 简约 靶 《Fitch.1977)。 这 类 方法 旨 在 确定 最 短 的 
系统 树 一 一 该 树 仅 需要 最 少 的 进化 步骤 就 能 解释 所 有 DNA Fl Be. MEE 
DNA 序列 数据 ， 最 短 的 系统 树 可 能 只 有 一 个 ， 也 可 能 有 多 个 。 这 类 方 夺 允许 缺失 一 些 分 
类 单元 的 部 分 DNA 序列 数据 。 也 就 是 说 ， 即 使 在 无 法 获取 少数 分 类 单元 完整 的 ,DNA JF 
列 的 情况 下 ， 仍 可 使 用 简约 革 。 专 为 简约 甘 设 计 的 计算 机 软件 PAUP(Swofford,1993) 功 
ERE, RESNI, € HAR HEAR A EH M AA Fo D RBH (distance 
methods)。 这 类 方 靶 首先 需要 从 DNA 序列 计算 每 对 分 类 单元 间 的 遗传 距离 。Jukes 等 
《1969) 的 单 参数 靶 和 玉 imura(1980) 的 双 参 数 法 较为 常用 。 软 件 PHYLIP(Felsenstein,1993) 
中 的 DNADIST 程序 包括 了 这 两 种 计算 距离 的 方法 。 在 获取 距离 矩阵 后 ， 距 离 法 按照 一 
定 的 规则 ， 根 据 各 距离 值 间 的 内 在 关系 构建 系统 树 。 距 离 法 有 很 多 种 ， 其 中 以 UPGMA 
2% (Sneath 等 ,1973) 和 Neighbor-joining # (Saitou 等 ,1987) 影响 最 大 。 这 两 种 方法 都 
可 用 PHYLIP t Feleenstein,1993) 中 的 NEIGHBOR 程序 进行 计算 。3) (#8 %& (likeli- 
hood methods)。 这 类 方 革 首先 需要 确定 一 个 序列 进化 的 模型 ， 如 及 imura(1980) 的 双 和 参数 
模型 等 。 然 后 寻找 在 该 进化 模型 下 、 最 有 可 能 产生 所 研究 DNA 序列 数据 的 系统 树 。 这 类 
方法 要 求 所 有 研究 的 分 类 单元 都 具有 完整 的 DNA 序列 数据 ， 在 运算 过 程 中 仅 考 虑 威 基 取 
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代 而 忽略 缺失 7/ 插入。 由 于 这 类 方法 的 计算 特别 复杂 费时 ， 因 此 其 应 用 并 不 如 前 两 类 方法 
那么 普遍， 最 大 似 然 法 〈imaximum likelihood method) 是 其 中 影响 最 大 的 一 种 
(Felsentein,1981)。 这 种 方法 可 用 PHYLIP (Felsenstein.1993) 中 的 DNAML 程序 进行 
分 析 运 算 。 

应 当 指 出 的 是 ， 通 过 上 述 方法 获得 的 分 子 系统 树 是 无 根 的 unrooted tree)。 但 是 ， 
我 们 可 以 通过 外 群 分 析 确 定 树 的 根 。 

在 用 某 种 方法 获取 系统 树 后 ， 还 有 必要 用 重 抽样 法 (bootstrap) 评估 系统 树 的 可 靠 
性 (Felsenstein,1985)。 这 种 方法 的 操作 一 般 都 需要 计算 机 。PAUP (Swoffird,1993) 和 
PHYLIP (Felsentein,1993) 两 种 软件 中 都 有 重 抽样 分 析 的 功能 ， 不 过 运算 较为 费时 。 

值得 注意 的 是 ， 各 类 方法 都 需要 一 定 的 前 提 条 件 ， 因 而 也 有 一 定 的 运用 范围 。 然 而 ， 
我 们 对 许多 条 件 所 知 其 微 ， 因 而 很 难 判 断 在 某 一 具体 情况 下 哪 种 方法 最 佳 
(Felsenstein,1988)。 我 们 认为 ， 最 好 同时 合用 多 类 方法 构建 系统 树 。 多 种 方法 所 次 系统 树 i 
的 一 致 ， 将 大 大 提高 结果 的 可 靠 性 (Kim,1993;Zhang 等 ,1994)。 

对 于 上 述 各 类 方法 的 详细 原理 及 其 限制 ， 可 参阅 Swofford 等 (1990)。 至 于 各 种 计算 
机 软件 的 功能 和 具体 操作 方法 ， 如 特征 加 权 ， 树 的 搜 妓 、 重 抽样 分 析 等 ， 作 者 拟 另 外 撰文 
介绍 ， 在 此 不 再 玩 述 。 


5 基因 树 与 物种 树 


当 一 个 分 子 系统 树 是 根据 某 一 基因 数据 构建 而 来 时 ， 就 称 为 基因 树 。 物 种 树 则 是 指 代 
表 了 一 组 物种 进化 过 程 的 系统 树 (Nei,1987)。 基 因 树 与 物种 择 可 能 存在 两 方面 的 区 别 。D) 
对 于 某 一 被 研究 的 基因 ， 可 能 存在 种 内 的 多 态 性 。 换 言 之 ， 在 物种 分 化 之 前 ， 该 基因 可 能 
已 开始 分 化 。 因 此 ， 两 物种 闻 读 基因 的 分 化 时 间 可 能 早 于 这 两 个 物种 的 分 化 时 间 。 由 这 一 
基因 计算 而 来 的 分 枝 长 度 (分 睹 时 间 〉 可 能 偏 高 。 对 于 较 长 时 间 的 进化 过 程 而 言 ， 因 种 内 
多 态 导致 的 这 种 误差 可 以 忽略 不 计 。 但 是 ， 对 于 新 分 化 的 物种 ， 这 种 误差 的 影响 可 能 很 
Ko D 基因 树 的 分 枝 人 情况 〈 拓 扑 结构 ) 可 能 不 同 于 物种 树 的 。 这 种 情况 一 般 发 生 在 分 枝 
点 非常 接近 的 物种 闻 。 人 、 猩 猩 和 大 猩猩 间 的 关系 可 能 是 较为 典型 的 例子 。 这 是 因为 
DNA 突变 是 随机 过 程 ， 在 有 限 的 序列 内 可 能 存在 统计 学 上 的 偏差 。 通 过 增加 DNA 序列 
的 长 度 并 测定 多 个 相互 独立 的 基因 片段 ， 一 般 可 以 避免 这 种 问题 的 发 生 。 

我 们 所 研究 的 物种 进化 过 程 都 已 成 为 历史 ， 我 们 不 可 能 重建 出 绝对 完整 的 历史 ， 同 样 
也 不 可 能 获取 绝对 的 物种 树 。 但 是 ， 通 过 多 基因 、 大 量 DNA 序列 的 正确 分 析 ， 可 以 最 大 
限度 地 缩小 基因 树 与 物种 树 间 的 差别 。 在 这 种 情况 下 获得 的 系统 树 一 般 也 可 被 接受 为 物种 
树 。 

致谢 ”本 所 王 应 祥和 刘 瑞 清 教 授 、 本 实验 室 刘 爱 华 教授 、 王 文 、 宿 兵 、 聚 龙 、 和 朱 春 
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